home *** CD-ROM | disk | FTP | other *** search
/ Giga Games 1 / Giga Games.iso / net / go / info / aga_rat.ing < prev    next >
Encoding:
Internet Message Format  |  1993-06-20  |  10.0 KB

  1. From: wjh+@andrew.cmu.edu (Fred Hansen)
  2.  
  3.  
  4. Recently I offered to post a summary of the algorithms used in the
  5. American Go Association rating system.  The summary below was written by
  6. Paul Matthews, author of the rating system.  It comes as part of the
  7. software for the "Accelerated Pairing System" which is a practical and
  8. equitable system for pairing players in tournaments.
  9.  
  10. - - - - - - - - - - - - - -
  11. INSIDE THE AGA RATINGS SYSTEM                                           7/28/90
  12. Paul Matthews, Princeton Go Society
  13.  
  14.  
  15. INTRODUCTION
  16.  
  17. Questions about ranks and ratings, who's really stronger, and how one
  18. part of the world compares with another, probably have no
  19. once-and-for-all-time answers.  Local, national and international
  20. traditions evolve, players enter and leave active competition, the
  21. general level of go knowledge increases, and new champions appear.  Yet
  22. there is a persistent interest in having some kind of measurement and
  23. recognition of playing strength.  The AGA approach for many years has
  24. been to publish ratings, numbers on a continuous scale that can be
  25. equated roughly to traditional amateur ranks, but that reflect the ups
  26. and downs of competitive play.
  27.  
  28. In 1988 and 1989, the AGA ratings system was extensively overhauled. 
  29. Phil Straus, Paul Matthews, Bob High, Steve Fawthrop, Laurie Sweeney,
  30. Richard Cann, Bruce Ladendorf, Nick Patterson, and others, contributed
  31. mightily of their time and expertise to launch the new system.  Although
  32. the initial goal was to correct logical inconsistencies that had crept
  33. into the old system, the bulk of the work turned out to be concerned
  34. with data integrity, tournament reporting practices, computer software
  35. development, and proving to each other that the new system really
  36. worked.  The present article takes an inside look at the new system.
  37.  
  38.  
  39. NUMERICAL SCALE
  40.  
  41. Ratings are expressed on a scale 100 and up for dan level players, and
  42. -100 and down for kyu level players.  Dividing a rating by 100 yields
  43. the rank equivalent; thus, 276 is a 2 dan rating, and -432 is 4 kyu. 
  44. Because there is no rank between 1 kyu and 1 dan, there are no ratings
  45. between -100 and 100, which can be confusing when doing ratings
  46. arithmetic.
  47.  
  48. When a player first enters the system, his or her self-declared rank is
  49. translated to a provisional rating.  For example, 6 dan is translated to
  50. 650, and 1 kyu to -149.  Ratings adjust quickly, so that a new player
  51. reaches the right level in just a few tournaments, and no player's
  52. rating gets stuck; this is one of the improvements over the old system.
  53.  
  54.  
  55. CREDIBILITY
  56.  
  57. Your AGA rating does not tell you precisely how strong you are.  What it
  58. does tell you is how you stand relative to other players based on your
  59. recent performance in tournaments and other rated events.  Your
  60. perception of your strength is based on more games than are rated, and
  61. you may be more accurate, particularly if you have been playing at about
  62. the same level for several years.  However, if your estimate differs
  63. radically from your AGA rating, say higher by as much as 200 points,
  64. then most players would agree that you have something to prove, and be
  65. quite willing to give you the chance!  Discrepancies of up to 100 points
  66. are within the range of statistical error, but if your rating were
  67. chronically 100 points below your claimed rank, then you ought to
  68. reassess the strength of your play.
  69.  
  70. Be aware that many of your opponents may exaggerate their rank.  In
  71. tournaments, players often enter at a higher rank to gain experience. 
  72. But the ratings system sees them as they are, and consequently, your
  73. victories may not gain as many rating points as you think they should,
  74. and your losses may be more serious.  In the United States, about one
  75. third of the players who claim ranks between 6 kyu and 3 dan have
  76. ratings that are one or more ranks lower.  However, the ratings of
  77. players below 6 kyu and above 3 dan agree remarkably well with their
  78. claimed ranks.
  79.  
  80.  
  81. STATISTICAL MODEL
  82.  
  83. A statistical model is indispensable to avoid logical inconsistencies
  84. and to do ratings arithmetic properly.  In common with the Elo system
  85. used internationally in chess, the AGA model expresses the probability
  86. of winning a game as a function of rating difference.  This so called
  87. "percentage expectancy" curve, PX, is represented as a normal
  88. probability distribution function with standard deviation px_sigma. 
  89. Working backward from this assumption, it is possible to infer likely
  90. rating differences given actual game results.
  91.  
  92. One problem this approach must address is to estimate a rating
  93. difference based on a single game, or any set of games where one player
  94. always wins.  The mathematics of simple maximum likelihood estimation
  95. would suggest that the winning player is likely to be infinitely
  96. stronger than the loser!  Given that most games are approximately evenly
  97. matched, this inference is obviously unreasonable, and ignores the fact
  98. that we have some prior knowledge about the players.  The AGA system
  99. uses Bayesian statistical methods to solve the problem.  The essential
  100. idea is to capture the notion that players are probably about the
  101. strength they say they are; the technical device is a normal probability
  102. density function, called the "rating prior," RP, centered on the
  103. player's presumed rating and with standard deviation rp_sigma.  For one
  104. game, the Bayesian likelihood is of the form,
  105.  
  106.     likelihood(outcome) = RP(rating1) * RP(rating2)
  107.             * PX(outcome | rating1 - rating2)
  108.  
  109. At some point, the increase in PX likelihood as the estimated ratings of
  110. the two players spread apart is balanced by decreases in player RP
  111. likelihoods as ratings are stretched farther from the players' prior
  112. presumed strengths; new ratings are defined by the balance point where
  113. likelihood is at a maximum.  The magnitude of the rating change is
  114. determined by rp_sigma, larger values allowing larger movements.
  115.  
  116. For multiple games, the RPs for all the players, and the PXs for all the
  117. games, are multiplied together to obtain the overall likelihood.  This
  118. connects the ratings of all players together in a network of
  119. interlocking games, and improves the stability and accuracy of ratings
  120. compared with updating ratings one game at a time.  The maximum Bayesian
  121. likelihood is found numerically by simultaneously adjusting all the
  122. ratings until the best (i.e., most likely) combination is found.
  123.  
  124.  
  125. PARAMETER VALUES
  126.  
  127. The current values of the AGA ratings system parameters are shown in the
  128. table below.  A px_sigma value of 104 implies that a player who is
  129. stronger by a full rank (i.e., 100 rating points) should win about 83%
  130. of the time; the percentage for two ranks is 97%.  The value of px_sigma
  131. was chosen, based on the analysis of thousands of games, to be
  132. consistent with the model that the rating point equivalent of an n stone
  133. handicap is 100n.
  134.  
  135.  
  136.     RATINGS SYSTEM PARAMETER VALUES
  137.  
  138.         px_sigma  =  104
  139.         rp_sigma  =  80
  140.  
  141.         Rating point equivalents of handicaps:
  142.             50 - 10 * komi,   if stones = 0
  143.             100 * stones - 10 * komi   if 2 <= stones <= 9
  144.                     where  -20 <= komi <= 20
  145.  
  146. Rp_sigma expresses the uncertainty associated with old ratings; in
  147. practice, rp_sigma controls the volatility of ratings.  The current
  148. default value of 80 was chosen so that the average rating point value of
  149. a single game is 30, which limits the expected maximum gain in a five
  150. round tournament to 150 rating points.  Simulations showed that both
  151. large and very small values of rp_sigma work poorly, leading to severe
  152. fluctuations or stagnant ratings respectively.
  153.  
  154. The rating point equivalent of no komi, the so called "one stone"
  155. handicap, is significantly less than 100, a fact that was also
  156. recognized in the old ratings system.  The rating point values of other
  157. komi handicaps is an interesting topic for future statistical
  158. investigation.  The data that is currently available, much of it
  159. provided by Wayne Nelson, suggests that every point of a komi
  160. compensates for about 10 rating points.  Thus, since the value of the
  161. first move (i.e., taking Black) is about 50 rating points, a reverse
  162. komi of 5 1/2 points should come close to compensating for a full rank
  163. difference.
  164.  
  165.  
  166. IMPROVING PLAYERS
  167.  
  168. Many players believe that they are growing stronger, and are annoyed if
  169. their rating lags behind their self assessment.  The default value of
  170. rp_sigma seems sufficient for routine rating adjustments; however, a
  171. rapidly improving player may play at a rank several hundred points above
  172. his or her old rating, and a boost is needed.  Players who declare a
  173. rank more than 50 points higher than their rating, have the mean and
  174. standard deviation parameters of their RP function increased.  By adding
  175. points to the RP mean, points are added to the whole system, helping to
  176. counteract the tendency for the ratings of stable players to deflate as
  177. other players improve.  The larger standard deviation allows an
  178. improving player's rating to float more freely, upward or downward, and
  179. have less effect on the ratings of opponents.  Note that a player who
  180. performs poorly when playing above his or her rating risks a larger loss
  181. of rating points.
  182.  
  183.  
  184. SOFTWARE
  185.  
  186. The AGA ratings system is a suite of programs implemented (in C) for IBM
  187. PC compatible machines running DOS.  The ratings system software has
  188. been extended to provide on-site support for a wide variety of handicap
  189. and championship tournaments, both small and large.  Now tournament
  190. directors can generate on-the-spot ratings based on entry ranks and
  191. tournament games, and can even use the ratings to do pairings and figure
  192. out the tournament winners!  These extensions are called the
  193. "Accelerated System."  Significant effort also is being devoted to
  194. software that supports the verification and correction of AGA ID#s and
  195. names, preferrably at the tournament site.
  196.  
  197.  
  198. FUTURE WORK
  199.  
  200. The revitalized AGA ratings system is a world class system that is a
  201. credit to the AGA and the go world.  But it will never be perfect, and
  202. work continues.  Phil Straus, the AGA Ratings Commission chairperson, is
  203. doing a super job in coordinating and motivating many activities
  204. relating to ratings.  Some of the areas that are currently being
  205. addressed are:  a comparison of ranks in foreign countries with AGA
  206. ratings; rating the games of professional players; and better tournament
  207. practices to improve data integrity.  
  208.  
  209.